Cours Master 204 : Introduction au NLP
Le cours est une introduction aux méthodes d’analyse automatisée du texte, qu’ont peut appeler aussi NLP ( Natural Langage Processing) est désigné auparavant par text-mining. Le changement appellation résulte d’un mouvement d’accumulation de sophistication des techniques, allant du comptage des mots, aux méthodes d’embeddings aujourd’hui, et avec l’irruption des #LLM, la mise oeuvre de tâches complexe ( résumés, Q&A etc).
Programme
Séance 1 () : Introduction : corpus,
Séance 2 () : Tokenisation, annotations
Séance 3 () : coocurrence et représentations (réseau sémantique, clustering, projections)
Séance 4 () : Modèles LDA
Séance 5 () : Modèle doc2vec (embeddings)
Séance 6 () : Présentation des travaux
Evaluation
Sur la base d’un exposé qui prend la forme d’une étude de cas. Pour cette année (2023-2024), on s’intéresse à la question de la personnalité de marque en constituant un petit corpus. Chaque étudiant devra répondre à ce questionnaire, puis en petits groupes devra proposer une analyse du corpus.
Ressources
On consultera le syllabus
Ce cours est dispensé aussi pour le master 102, avec quelques variations.